সময়ের সাথে সাথে অডিও ডেটার একটি ভিজ্যুয়ালাইজেশন তৈরি করে।
স্পেকট্রোগ্রাম হল অডিও তথ্য উপস্থাপনের একটি প্রমিত উপায় যেটি ফ্রিকোয়েন্সি তথ্যের স্লাইসগুলির একটি সিরিজ হিসাবে, সময়ের প্রতিটি উইন্ডোর জন্য একটি স্লাইস। এগুলিকে একটি ক্রম হিসাবে একত্রিত করে, তারা সময়ের সাথে সাথে শব্দের একটি স্বতন্ত্র আঙ্গুলের ছাপ তৈরি করে।
এই অপটি একটি ইনপুট হিসাবে অডিও ডেটা পাওয়ার আশা করে, যা -1 থেকে 1 রেঞ্জে ফ্লোট হিসাবে সংরক্ষিত, নমুনাগুলিতে একটি উইন্ডোর প্রস্থ সহ, এবং স্লাইসের মধ্যে উইন্ডোটিকে কতদূর সরাতে হবে তা নির্দিষ্ট করে। এটি থেকে এটি একটি ত্রিমাত্রিক আউটপুট তৈরি করে। প্রথম মাত্রাটি ইনপুটের চ্যানেলগুলির জন্য, তাই একটি স্টেরিও অডিও ইনপুট এখানে দুটি উদাহরণ স্বরূপ। দ্বিতীয় মাত্রা হল সময়, ধারাবাহিক ফ্রিকোয়েন্সি স্লাইস সহ। সেই সময় স্লাইস চলাকালীন প্রতিটি ফ্রিকোয়েন্সির জন্য তৃতীয় মাত্রার একটি প্রশস্ততা মান রয়েছে।
এর অর্থ হল লেআউটটি যখন রূপান্তরিত এবং একটি চিত্র হিসাবে সংরক্ষণ করা হয় তখন একটি সাধারণ বর্ণালীগ্রাম থেকে ঘড়ির কাঁটার দিকে 90 ডিগ্রি ঘোরানো হয়। সময় Y অক্ষের নিচে নামছে এবং ফ্রিকোয়েন্সি বাম থেকে ডানে কমছে।
ফলাফলের প্রতিটি মান নমুনার বর্তমান উইন্ডোতে একটি FFT এর বাস্তব এবং কাল্পনিক অংশের যোগফলের বর্গমূলকে উপস্থাপন করে। এইভাবে, সর্বনিম্ন মাত্রা বর্তমান উইন্ডোতে প্রতিটি কম্পাঙ্কের শক্তিকে প্রতিনিধিত্ব করে, এবং পার্শ্ববর্তী উইন্ডোগুলি পরবর্তী মাত্রায় সংযুক্ত করা হয়।
এই অপারেশনটি কী করে তা আরও স্বজ্ঞাত এবং চাক্ষুষ রূপ পেতে, আপনি একটি অডিও ফাইলে পড়ার জন্য tensorflow/examples/wav_to_spectrogram চালাতে পারেন এবং ফলস্বরূপ স্পেকট্রোগ্রামটিকে একটি PNG চিত্র হিসাবে সংরক্ষণ করতে পারেন।
নেস্টেড ক্লাস
ক্লাস | অডিও স্পেকট্রোগ্রাম। অপশন | AudioSpectrogram জন্য ঐচ্ছিক বৈশিষ্ট্য |
ধ্রুবক
স্ট্রিং | OP_NAME | এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত |
পাবলিক পদ্ধতি
আউটপুট < TFloat32 > | আউটপুট হিসাবে () টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়। |
স্ট্যাটিক অডিও স্পেকট্রোগ্রাম | |
স্ট্যাটিক অডিও স্পেকট্রোগ্রাম। অপশন | magnitudeSquared (বুলিয়ান ম্যাগনিচুডস্কোয়ার্ড) |
আউটপুট < TFloat32 > | বর্ণালীগ্রাম () একটি চিত্র হিসাবে অডিও ফ্রিকোয়েন্সিগুলির 3D উপস্থাপনা৷ |
উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি
ধ্রুবক
সর্বজনীন স্ট্যাটিক চূড়ান্ত স্ট্রিং OP_NAME
এই অপের নাম, টেনসরফ্লো কোর ইঞ্জিন দ্বারা পরিচিত
পাবলিক পদ্ধতি
সর্বজনীন আউটপুট < TFloat32 > asOutput ()
টেনসরের প্রতীকী হ্যান্ডেল ফেরত দেয়।
TensorFlow অপারেশনের ইনপুট হল অন্য TensorFlow অপারেশনের আউটপুট। এই পদ্ধতিটি একটি প্রতীকী হ্যান্ডেল পেতে ব্যবহৃত হয় যা ইনপুটের গণনাকে প্রতিনিধিত্ব করে।
পাবলিক স্ট্যাটিক অডিও স্পেকট্রোগ্রাম তৈরি করুন ( স্কোপ স্কোপ, অপারেন্ড < TFloat32 > ইনপুট, লং উইন্ডো সাইজ, লং স্ট্রাইড, অপশন... অপশন)
একটি নতুন AudioSpectrogram অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানা পদ্ধতি।
পরামিতি
সুযোগ | বর্তমান সুযোগ |
---|---|
ইনপুট | অডিও ডেটার ফ্লোট উপস্থাপনা। |
উইন্ডো সাইজ | নমুনাগুলিতে ইনপুট উইন্ডোটি কতটা প্রশস্ত। সর্বোচ্চ দক্ষতার জন্য এটি দুটির শক্তি হওয়া উচিত, তবে অন্যান্য মানগুলি গ্রহণ করা হয়। |
অগ্রসর | সংলগ্ন নমুনা জানালার কেন্দ্রটি কতটা বিস্তৃতভাবে আলাদা হওয়া উচিত। |
বিকল্প | ঐচ্ছিক বৈশিষ্ট্য মান বহন করে |
রিটার্নস
- অডিওস্পেকট্রোগ্রামের একটি নতুন উদাহরণ
পাবলিক স্ট্যাটিক অডিও স্পেকট্রোগ্রাম। অপশন ম্যাগনিটিউডস্কোয়ার্ড (বুলিয়ান ম্যাগনিচুডস্কোয়ার)
পরামিতি
স্কয়ার | বর্গক্ষেত্রের মাত্রা ফেরত দিতে হবে নাকি শুধু মাত্রা। বর্গাকার মাত্রা ব্যবহার করে অতিরিক্ত গণনা এড়াতে পারে। |
---|